百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

本文作者：周蕾

2020-07-08 08:02

導(dǎo)語：擁有三大開源聯(lián)邦學(xué)習(xí)框架之一的百度，有著怎樣的實踐心得？

對百度來說，聯(lián)邦學(xué)習(xí)+金融會產(chǎn)生怎樣的火花？

雷鋒網(wǎng)AI金融評論推出的《BATJ高管公開課》第四期，就邀請到了百度智能云智慧金融事業(yè)部算法負責(zé)人謝國斌做客線上講堂，揭秘百度智能云在金融領(lǐng)域的安全計算布局和技術(shù)思考。

此次課程，他將分享基于聯(lián)邦學(xué)習(xí)技術(shù)的百度金融安全計算平臺（度信）建設(shè)與實際應(yīng)用，講述如何借力安全技術(shù)架構(gòu)、脫敏方法和合規(guī)制度設(shè)計，在“用戶充分授權(quán)、數(shù)據(jù)來源合法合規(guī)”前提下，打破數(shù)據(jù)孤島，實現(xiàn)多方數(shù)據(jù)加密融合建模，助力金融企業(yè)業(yè)務(wù)的開展。

本文整理：佳慧，以下為謝國斌演講全文內(nèi)容：

百度智能云的數(shù)據(jù)孤島破解之道

我們在跟很多的金融客戶進行溝通的時候，他們普遍面臨的痛點，就是數(shù)據(jù)孤島和隱私保護的問題。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

目前的現(xiàn)狀是，一方面要保護客戶的隱私，另外一方面，數(shù)據(jù)孤島在不同的程度上存在著，去年央行發(fā)布的金融科技三年發(fā)展規(guī)劃里，也強調(diào)了要“消除信息的壁壘；數(shù)據(jù)融合?！?nbsp;

今年4月，國務(wù)院也在《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》里，強調(diào)了數(shù)據(jù)的共享、數(shù)據(jù)資源的整合和安全保護。

所以，“數(shù)據(jù)孤島”和“隱私保護”兩者的困境，在業(yè)內(nèi)一直是個難題。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

行業(yè)里做這塊技術(shù)的公司，一般有如下路徑在積極探索：

其中一種就是聯(lián)邦學(xué)習(xí)；還有與之接近的，就是在做參數(shù)交換、梯度交換的時候，會用到的多方安全計算。另一種以硬件加密為主，可信計算（TEE），在內(nèi)存里做安全加密。以及基于云安全，做安全隔離域的方法。

基于剛才說到的痛點，百度推出了度信金融安全計算平臺，做數(shù)據(jù)融合，前提是強調(diào)用戶要充分授權(quán)，數(shù)據(jù)來源要合法、合規(guī)。也提出了聯(lián)合建模產(chǎn)品，拒絕數(shù)據(jù)孤島的存在，產(chǎn)品對上面幾種路徑都是支持的。

今天的要點，主要是分享在聯(lián)邦學(xué)習(xí)和多方安全計算技術(shù)路徑上，我們所做的嘗試和產(chǎn)品的研發(fā)。

我們的金融安全計算平臺有以下特點：

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

平臺主要服務(wù)于金融行業(yè)to B客戶，會考慮行業(yè)里特別關(guān)注的一些場景，比如營銷、風(fēng)控、投研、反欺詐。我們基于金融的建模，有一些專用的功能點增強。從安全特性上，無論硬件軟件，有多種的方式進行技術(shù)加固。

金融云專區(qū)上，我們通過了國家的四級等級保護；數(shù)據(jù)流通方面，我們今年通過了信通院的相關(guān)技術(shù)測評。

從計算建模層面看，我們是自主操作，甲方乙方各自操作，全程免編碼，流程很簡單，性能比同類的算法也要快。

私有云、公有云和私有化方面，我們有多種方式部署，產(chǎn)品目前也能提供工業(yè)級的使用體驗，包括嚴(yán)格的工程封裝、項目的驗證實測，還有百度沉淀的金融行業(yè)案例、提供金融行業(yè)的場景的解決方案。

度信金融安全計算平臺的技術(shù)方案

我們這個平臺建設(shè)，剛才提到用三大類技術(shù)方案，統(tǒng)一前端入口和統(tǒng)一后臺架構(gòu)。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

后臺的架構(gòu)，從下往上看，分為執(zhí)行層、應(yīng)用層、操作層、場景層。

從執(zhí)行層看，中間是基于多方計算的聯(lián)邦學(xué)習(xí)引擎，引擎最下面是基于加密的密碼學(xué)算法和一些常用的不經(jīng)意傳輸、同態(tài)加密、密鑰分享等。

往上是基于密碼學(xué)算法的多方安全計算，雙方或多方的加密數(shù)據(jù)的協(xié)調(diào)和交換，隱私的PSI對齊、ID化、聯(lián)邦分析和聯(lián)邦學(xué)習(xí)。

再往上是應(yīng)用層一些基于模型的算法的應(yīng)用，這個是標(biāo)準(zhǔn)的機器學(xué)習(xí)建模流程。

操作層有可視化的操作平臺和4A安全賦能金融行業(yè)，打造營銷風(fēng)控端對端的場景化建模功能。

我們的平臺架構(gòu)，需要滿足三個不同的客戶需求：

定制化方案要滿足客戶不同的安全等級要求；有客戶對建模要求較高，那對算子、算法、模型多樣性、交互和應(yīng)用性方面要求就高一些，我們也會提供類似的解決方案。還有對不同的資源配置，構(gòu)建私有云、公有云和專有云支撐，支持不同的部署方案。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

這個平臺的操作很簡單，就是三個步驟。

先是合作的AB雙方，完成本地數(shù)據(jù)的上傳。原則上都是上傳到自己的IDC機房里，數(shù)據(jù)不出域。

第二步細分為幾個小步驟：

1.數(shù)據(jù)的融合，會通過隱私保護的求交技術(shù)PSI，達到雙方的數(shù)據(jù)的可用不可見。

強調(diào)一下，融合不會泄露雙方的數(shù)據(jù)隱私，比如說甲方有一億的客戶，B方有5000萬的客戶，雙方去求交集，求出來只有500萬客戶，那么我們只知道這500萬的交集，剩下的客戶群雙方都是不知道的。

即使求交了這500萬的客戶，我們也只有某一個主要的使用方，比如甲方銀行在使用的時候，才知道這500萬相互求交的客戶號碼是什么。

2.求交的這批客戶，我們會進行簡單的特征工程，一些算法模型訓(xùn)練，包括像機器學(xué)習(xí)的邏輯回歸、GBDT等，也按照這個數(shù)據(jù)拆分，做完模型訓(xùn)練、輸出模型報告以后，進行模式部署、模型推理和預(yù)測發(fā)布。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第一步上傳樣本比較簡單，把數(shù)據(jù)上傳以后，摁一個按鍵，就會看到這一橫行里數(shù)據(jù)的上傳成功，然后AB雙方在這個地方點鼠標(biāo)發(fā)布，數(shù)據(jù)才傳到本地的服務(wù)器上面。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第二步模型訓(xùn)練，會自動包含剛才說的樣本對齊，包括可選的特征工程，還有算法參數(shù)、算法選擇等。

在模型訓(xùn)練過程中，等它出來一個結(jié)果，就會有一些像我這里截屏的模型，配置基本信息，比如雙方對齊了多少樣本，有哪一些特征？這里只能看到特征名稱。我們算法所涉及的每一個主要參數(shù)是什么樣的。這里以邏輯式回歸為例，生成模型評估報告，像ROC、KS值等等，就完成整個模型訓(xùn)練。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第三步就是模型預(yù)測，需要在頁面新建預(yù)測任務(wù)名稱，包括描述，還有我們選擇哪個預(yù)測的模型。生成的模型在這里做選擇，再選擇要預(yù)測的數(shù)據(jù)集，點藍色按鈕完成整個模型預(yù)測過程。一定時間后，就會看到右下角預(yù)測成功的顯示，整個模型的離線預(yù)測就完成了，也可以用新建預(yù)測服務(wù)以API的方式供外調(diào)用。

我們平臺的設(shè)計理念，是全程免編碼，通過鼠標(biāo)的拖拽來完成的。

度信平臺在銀行業(yè)、保險業(yè)的應(yīng)用

銀行信貸產(chǎn)品的互聯(lián)網(wǎng)營銷

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

這家銀行開展信貸業(yè)務(wù)時，需要通過互聯(lián)網(wǎng)去線上獲客，但它并沒有這種線上資源或流量去投放，也沒有相關(guān)風(fēng)險管理經(jīng)驗，于是它就跟某家互聯(lián)網(wǎng)公司進行渠道上的聯(lián)合建模，實現(xiàn)精準(zhǔn)獲客和控制風(fēng)險。

首先是銀行把他的數(shù)據(jù)和互聯(lián)網(wǎng)合作方，把數(shù)據(jù)在自己的機房里邊準(zhǔn)備好，然后各自聯(lián)邦學(xué)習(xí)時，上傳梯度參數(shù)。

在互聯(lián)網(wǎng)渠道這一端，主要是上傳數(shù)據(jù)，建模發(fā)生在銀行這端自行操作，就完成了整個建模過程，達到了數(shù)據(jù)模型建設(shè)，完成后確定合適人群。

第三步，精準(zhǔn)廣告投放，包括精準(zhǔn)獲客，這部分我們項目的客戶日均調(diào)用量是50萬筆。整體貸后表現(xiàn)非常好，降低了風(fēng)險，也節(jié)約了這家銀行的成本。

線上風(fēng)控+聯(lián)邦學(xué)習(xí)

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

因為銀行沒有過往的一些互聯(lián)網(wǎng)行為信息，也需要為此通過互聯(lián)網(wǎng)渠道來合作、來進行聯(lián)合建模。聯(lián)邦學(xué)習(xí)最后的效果就是，讓申請率提升了，通過率又穩(wěn)定在一定的范圍內(nèi)，不良率低于銀行業(yè)同業(yè)平均水平。

這個案例，我們推送的貸款客戶金額是超過千萬；通過率控制在穩(wěn)定范圍；該案例的不良貸款率是0.38 ，比去年銀行業(yè)1.81的不良率低了不少。

不同險種交叉營銷

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

這個案例是一家車險公司的業(yè)務(wù)，在客戶里篩選健康險的意向用戶，進行精準(zhǔn)點對點促銷。建模流程與上個案例類似，由保險公司提供的高響應(yīng)人群樣本和互聯(lián)網(wǎng)公司的數(shù)據(jù)進行融合訓(xùn)練，最后結(jié)果運用于全量的車險客戶群。

效果上，這個模型的AUC值達到了0.76，減少了對客戶的打擾，也降低了營銷的成本。

聯(lián)邦學(xué)習(xí)落地金融的關(guān)鍵技術(shù)點

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

聯(lián)邦學(xué)習(xí)本質(zhì)上是軟件加密技術(shù)，數(shù)據(jù)不出域、不出本企業(yè)，主要是通過梯度參數(shù)出域。從本質(zhì)上來說是去中心化的方案。橫向聯(lián)邦由谷歌在2016年的時候研發(fā)出來，即數(shù)據(jù)的水平切分，主要用于金融同業(yè)間的數(shù)據(jù)融合。

橫向聯(lián)邦學(xué)習(xí)的計算步驟主要有四：雙方發(fā)送加密的梯度，安全的聚合，發(fā)送聚合的加密梯度參數(shù)，再解密梯度更新模型。

縱向聯(lián)邦學(xué)習(xí)基于數(shù)據(jù)的垂直細分，主要用于金融業(yè)和非金融行業(yè)，特別是像一家銀行和一家互聯(lián)網(wǎng)公司的數(shù)據(jù)融合。兩家公司的客戶群很多時候是重疊的，特征互補。

首先有分發(fā)公鑰，加密交換中間的結(jié)果，再進行加密梯度和損失的計算，然后更新模型。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

在和金融企業(yè)溝通的時候，我們發(fā)現(xiàn)他們關(guān)注的點有這些：

整個聯(lián)邦學(xué)習(xí)里，金融企業(yè)運用最多的是縱向聯(lián)邦學(xué)習(xí)，金融機構(gòu)更想看到的是和他非同業(yè)之間的數(shù)據(jù)融合。

銀行在和第三方機構(gòu)合作時，非常強調(diào)這些數(shù)據(jù)進來以后，對指標(biāo)的一些增量貢獻，在意的是在現(xiàn)有基礎(chǔ)上的提升。如果在現(xiàn)有基礎(chǔ)上，引入的數(shù)據(jù)源沒有很大幅度的提升、效果不明顯，對金融機構(gòu)的吸引力就會降低。

同時金融機構(gòu)也強調(diào)數(shù)據(jù)源的差異化，如果數(shù)據(jù)來源都很類似，那對指標(biāo)的貢獻、對模型效果，提升度不是很大。

聯(lián)邦學(xué)習(xí)是整個框架里的主要技術(shù)。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

另外，多方安全計算所涉及的加密技術(shù)，其主要原理如圖左所示，四個參與方在針對任何一方都沒有可信的情況下，安全地進行多方協(xié)同計算。

在一個分布式的網(wǎng)絡(luò)中，多個的參與實體各自持有秘密的輸入，完成對某函數(shù)的計算；但是要求每一個參與實體，除了計算的最終結(jié)果以外，其他的中間過程，包括自己其他客戶的原始數(shù)據(jù)，任何的輸入數(shù)據(jù)都是不可以看到、都是不可以獲得的，這保證了參與各方的數(shù)據(jù)的安全性。

在安全計算過程中，所用到的一些密碼學(xué)或加密技術(shù)，概括起來有這么七種。

混淆電路，來自于物理學(xué)電路原理：一堆人各自擁有隱私數(shù)據(jù)，想把數(shù)據(jù)合起來進行計算，但又不想把數(shù)據(jù)交換給別人，典型的案例就是百萬富翁問題。
不經(jīng)意傳輸，服務(wù)的某一個接收方，以不經(jīng)意的方式得到服務(wù)的發(fā)送方輸入的一些信息、信號，這樣就可以保護接受者的隱私不被發(fā)送者所知道。
秘密的比較協(xié)議，計算的雙方各輸入一個數(shù)值，但是他們又希望在不向?qū)Ψ叫孤蹲约旱臄?shù)據(jù)的前提下，比較出這兩個數(shù)的大小。
同態(tài)加密，用這種方法先計算，后解密，也等價于先解密后計算。同態(tài)加密里也有加法同態(tài)、乘法同態(tài)，包括全同態(tài)、偏同態(tài)、半同態(tài)等，它在聯(lián)邦學(xué)習(xí)中應(yīng)用也較多。
秘密分享，將秘密分割存儲，多個參與者要相互協(xié)作才能恢復(fù)秘密的消息，如果有一方?jīng)]有參與，是沒有辦法把這個秘密完全恢復(fù)出來的。
零知識證明，證明者能夠在不向驗證者提供任何有用的信息情況下，使驗證者相信某個論斷是正確的。
差分隱私，這在業(yè)界應(yīng)用也比較多。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

百度在多方安全計算方面，有自己的MPC平臺架構(gòu)。我們的平臺架構(gòu)分為這么六層，從基礎(chǔ)到應(yīng)用，有運行環(huán)境基于DOCKER的，還有基于云和SERVER的。

在基礎(chǔ)的運行環(huán)境往上，有剛才說到的六七種加密算法。再往上是整個系統(tǒng)包括TLS、4A這一塊的安全。再往上是系統(tǒng)平臺層，有用戶角色管理，包括數(shù)據(jù)和分布式調(diào)度、監(jiān)控等。再往上看是數(shù)據(jù)的接入，再到數(shù)據(jù)的應(yīng)用。

下面我會重點介紹三類算法，都是百度自研的。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第一種是邏輯回歸，邏輯回歸是常用的二分類的分類器，在這種分類器上面我們加了一個基于PrivC的加密算法的邏輯回歸，這種算法是基于MPC的安全學(xué)習(xí)。

我們在19年的安全頂會上面發(fā)表了關(guān)于這個算法的文章，特點是訓(xùn)練速度和在公開的服務(wù)器上的明文相比，速度大概會是在明文算法的40倍以內(nèi)，也就是明文算法假如要用時1分鐘，那么我們要用時40分鐘。

這里有一個案例，就是我們基于深度MNIST公開數(shù)據(jù)集，6萬行784位的運算，我們用時25秒，時間還是比較快的。

在下面的截圖，我們看到一些Table2，在一些加減還有一些常規(guī)的比較上面，基于我們自研的PrivC的算法和公開的其他的一些加密算法，像ABY、EMP、SPDZ等等，我們的運算速度都比他們快，標(biāo)出的黑色數(shù)值是越小越好。

我們的準(zhǔn)確率和明文算法比，會達到99%左右，比明文算法低一點點，一般的梯度，有時候建模如果控制得不太好，都會有一些模型的損耗，而我們的損耗是比較少的。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第二種算法，就是基于梯度提升的算法，有GBDT、XGBoost,再快一點的有LightGBM,我們這種算法叫SecureGBM,它是在LightGBM級別的基礎(chǔ)上改造而成的。

基于 LightGBM基礎(chǔ)上改造而成的這種算法，我們也是發(fā)表在19年的IEEE國際大數(shù)據(jù)會議上，大家看到左下角有一個截圖，紅色的框是百度自研的叫SecureGBM,藍色的框，LightGBM-（A,B）就是明文算法，我們算法最后的結(jié)果和同類的最好的明文算法去比，在沒有用任何加密的和普通的建模相同的條件下，AUC值的差距大概是在3%以內(nèi)。

我們也比較了其他的一些明文算法，在這個圖里邊是-A或者-B，它是用了一些加密的聯(lián)邦的一些算法去比AUC值，我們的算法都是比其它的算法會高一些，但我們會比明文的算法大概低三個AUC值，在3%以內(nèi)。

第二個是它的運算速度，從這個截圖看到，對比了16,000個樣本，我們的算法和明文算法去比的話，我們的速度大概是明文算法的6倍，也就是明文算法如果用一分鐘的話，我們會用六分鐘，這個已經(jīng)是非常好的效果了。

這個地方我們也提到，我們現(xiàn)在用的這個Paper里邊是16,000個樣本，如果樣本增加到10萬個，或者再往上增加，我們這個算法的運算效率會更高。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

那么我們SecureGBM和明文算法的LightGBM，雙方數(shù)據(jù)在一起，比較了在訓(xùn)練集上的AUC值和F1值，大家會看到有一條紅線和一條藍線，在截圖里面紅線和藍線絕大多數(shù)時候是靠在一起的，走勢是相同的，非常的接近。

說明我們的這個算法和明文的LightGBM的算法，在AUC值、在F1、在訓(xùn)練集上和測試集上，達到了非常類似的一個效果。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第三種算法基于深度學(xué)習(xí)，PaddleFL，是在我們百度自研的一個開源的深度學(xué)習(xí)框架飛槳的基礎(chǔ)上，研發(fā)出來的開源的聯(lián)邦學(xué)習(xí)框架。

下面是開源框架的github的網(wǎng)址，通過PaddleFL，使用人員可以很輕松的去復(fù)制和比較不同的聯(lián)邦學(xué)習(xí)算法，也可以在分布式的大規(guī)模集群里面去使用。

這種PaddleFL主要用在深度學(xué)習(xí)算法里邊，用在計算機視覺、自然語言處理和推薦算法的一些領(lǐng)域，也提供一些傳統(tǒng)的機器學(xué)習(xí)的訓(xùn)練策略。

比如說像多任務(wù)學(xué)習(xí)，還有一些遷移學(xué)習(xí)、主動學(xué)習(xí)等等，我們底層也提供基于分布式的訓(xùn)練和Kubernetes的訓(xùn)練任務(wù)的彈性的調(diào)度能力，可以進行全站開源軟件的侵入和部署，下面是基于我們的飛槳的一個的架構(gòu)圖。

接下來是編程模型、參數(shù)服務(wù)器、到端側(cè)訓(xùn)練和彈性調(diào)度，再往上是我們聯(lián)邦學(xué)習(xí)的訓(xùn)練策略及應(yīng)用。

聯(lián)邦學(xué)習(xí)策略這塊我們也有縱向的聯(lián)邦學(xué)習(xí)，剛才提到的PrivC的邏輯回歸，橫向的聯(lián)邦學(xué)習(xí)，還包括DPSGD基于差分隱私的隨機梯度等等。

我們也有常態(tài)的一些機器學(xué)習(xí)，像遷移學(xué)習(xí)，多任務(wù)學(xué)習(xí)，主動學(xué)習(xí)等基于聯(lián)邦學(xué)習(xí)的任務(wù)，還有基于深度學(xué)習(xí)的自然語言處理、視覺、推薦這一塊的學(xué)習(xí)任務(wù)，都是在PaddleFL的基礎(chǔ)上來做深度聯(lián)邦學(xué)習(xí)的建模。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

PaddleFL的架構(gòu)設(shè)計，圖的左邊叫編譯Compile Time，是首先通過聯(lián)邦策略，去設(shè)計一些算法策略，然后在中間設(shè)計訓(xùn)練策略，再用分布式的配置，合成以后，傳到中間任務(wù)的調(diào)度上面。任務(wù)調(diào)度再傳到參數(shù)的任務(wù)和訓(xùn)練的任務(wù)上面生成了job以后，再傳到這邊運行。

運行這一塊有參數(shù)的服務(wù)器和worker，再下面是調(diào)度器，整個就會把服務(wù)提起來，然后進行分布式的訓(xùn)練，這是PaddleFL的架構(gòu)設(shè)計。

同理，我們也有基于MPC的聯(lián)邦學(xué)習(xí)，分成三部分，一是圖右部分，基于數(shù)據(jù)的準(zhǔn)備，首先有私有數(shù)據(jù)的對齊和數(shù)據(jù)加密及分發(fā)。

二是訓(xùn)練和推理過程，和Paddle的運行模式一樣。首先要定義協(xié)議，在策略訓(xùn)練和推理完成后，就會到這個圖的最右邊進行結(jié)果的重構(gòu)。

這一塊就會把模型的結(jié)果或者預(yù)測結(jié)果，由加密方以加密的形式輸出，結(jié)果方可以收集加密的結(jié)果，在PFM工具中進行解密，再將明文的結(jié)果傳遞給用戶，就完成了整個MPC的聯(lián)邦學(xué)習(xí)過程。

安全保證是金融企業(yè)最高優(yōu)關(guān)注點

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

我們先看看現(xiàn)有的模式，現(xiàn)有的模式只有幾個，在沒有用到聯(lián)邦學(xué)習(xí)的時候，狀態(tài)是自己的IDC機房的網(wǎng)絡(luò)和外界是隔離的，沒有聯(lián)通互聯(lián)網(wǎng)，數(shù)據(jù)不進不出，因為只用到自己的核心系統(tǒng)的數(shù)據(jù)，數(shù)據(jù)是物理隔離的。

但是這個模式最大的問題，就是在它的建模過程中，會存在著一些天花板，比如剛才提到的KS值，如果做到0.35了，就再也不能再往上做了。

模型效果更多的取決于特征工程，而他又沒有用過外面的無論是互聯(lián)網(wǎng)，還有政府，一些運營商的一些領(lǐng)域的數(shù)據(jù)，那么一些風(fēng)控也好，營銷的行為它是拿不到的，模型的上限是由多維度、多樣性來決定的，所以達不到很好的建模效果。

于是就衍生出來第二種模式，叫標(biāo)準(zhǔn)分的調(diào)用模式，標(biāo)準(zhǔn)分的第二個模式，它也是有自有機房，但是它的網(wǎng)絡(luò)變成不是隔離的了，而是單通道的，就是它的數(shù)據(jù)只進不出。

在網(wǎng)絡(luò)這塊，因為開了一個單向的通道，有可能存在一些被黑客攻擊的風(fēng)險，這個標(biāo)準(zhǔn)分的調(diào)用也有一些弊端。

大家知道，進來的只是一些標(biāo)準(zhǔn)分，也就是說，外面的數(shù)據(jù)過來的可能就是一個變量或者兩個變量，它是一個高維特征壓縮以后的、降維以后的一些特征的輸入，每次輸入只有那么兩三個特征。

這種高維特征壓縮降到兩三個維度以后，有非常多的特征信息是損失了的，所以它提升的建模效果在信貸場景可能只提升那么一兩個點，比如像KS值是0.35，提升到0.37、0.38就到了天花板了。

我們今天談到聯(lián)邦學(xué)習(xí)的模式，它的數(shù)據(jù)通道是雙通道的，雙方要進行梯度或模型參數(shù)的交換。

首先，雙方數(shù)據(jù)對上面的一個中間節(jié)點要進行上傳，但是它的原始數(shù)據(jù)沒有出域，它的參數(shù)數(shù)據(jù)或者模型的參數(shù)或者梯度參數(shù)，是通過加密的方式來出域的。

從這個角度來看，因為它的網(wǎng)絡(luò)通道打開了，存在潛在的被黑客去攻擊的風(fēng)險。梯度參數(shù)的話，從現(xiàn)在的業(yè)內(nèi)的研究來看，也存在一些被反解，或者一些隱私被攻擊的方法。

還有一個，它有一個強烈假設(shè)，就是需要參與的雙方或者各方，需要滿足誠實、半誠實模型的原則，如果有一方有嚴(yán)重的欺詐，去改變了模型的一些參數(shù)，或者是一些游戲規(guī)則，模型的安全也會受到一些挑戰(zhàn)。

這是聯(lián)邦學(xué)習(xí)目前和上面的現(xiàn)有模式、標(biāo)準(zhǔn)的模式相比，所面臨的一些優(yōu)點和缺點。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

那么這里會就提到模型提效，模型提效是一把雙刃劍?，F(xiàn)有模式下，在右邊的這樣一個方程式，目標(biāo)標(biāo)簽Y是來自于金融企業(yè)本身，它的X特征也是來自于這家企業(yè)，企業(yè)只用自有的數(shù)據(jù)建模，沒有外部數(shù)據(jù)帶來模型效果提升，就會面臨天花板。

我們再看聯(lián)邦學(xué)習(xí)這種方式，剛才提到，通過梯度參數(shù)的交換來建立模型，那么基本上雙方數(shù)據(jù)沒有降維，外部提升的最大好處就是，帶來的模型效果提升非常大，與明文相比的話，它的精度損失基本上還是比較小的。

但是，在和很多金融企業(yè)溝通后，知道它有非常大的短板，企業(yè)有各種各樣的顧慮。

1.建模的過程中，即使想用聯(lián)邦學(xué)習(xí)來進行建模，金融企業(yè)很多時候并不愿意把自己的特征放進來，但是可能只會將自己客戶的ID和目標(biāo)變量Y放進來，因為金融企業(yè)會覺得用聯(lián)邦學(xué)習(xí)來建模，有可能存在一些數(shù)據(jù)安全的問題。

2.他們也希望拿到一些數(shù)據(jù)以后，再做二次建模，以滿足金融監(jiān)管的要求，因為在金融監(jiān)管這一塊，特別是在信貸風(fēng)控的場景，希望金融機構(gòu)要自控這個模型本身，而不能把這個模型交給外部的機構(gòu)去控制。

安全保證和數(shù)據(jù)提效前提下的得與舍

在數(shù)據(jù)的安全保證和數(shù)據(jù)提效的前提下，聯(lián)邦學(xué)習(xí)還要面對什么樣的得和舍呢？

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

第一個，從運算速度來看，現(xiàn)有的銀行在自己的機房里面進行明文計算的數(shù)據(jù)建模，它的特點是運算速度很快，可以用像spark、Tensorflow、PaddlePaddle等分布式技術(shù)去做這種很成熟的運算。

但是到聯(lián)邦學(xué)習(xí)就不一樣了，剛才提到，它的訓(xùn)練速度至少會比明文計算，少則慢一個數(shù)量級，慢10倍幾十倍，也有慢兩個數(shù)量級幾百倍的這種可能性。

第二塊就是它現(xiàn)有的分布式技術(shù)還不太成熟，這是他在速度這一塊可能需要去考量的。

第二個，從算法種類來說，明文算法它是基于Python的開源社區(qū)，算法生態(tài)非常多，上千種上萬種，頂級論文的開源代碼，基本上就是按天、按周來迭代，更新的頻次非?？?。

但是在聯(lián)邦學(xué)習(xí)的算法過程中，要考慮到數(shù)據(jù)參數(shù)的加密，所以它的研發(fā)非常困難，我們的算法種類相對而言都是比較少的。業(yè)界現(xiàn)在能看到的也就是那么幾種或者幾十種，并且也不可能把最新的算法研發(fā)出來用在聯(lián)邦學(xué)習(xí)這個領(lǐng)域。

第三塊，就是產(chǎn)品的應(yīng)用性，因為現(xiàn)在基于明文數(shù)據(jù)的這種算法，AI開發(fā)平臺有非常多，支持多種框架，還有它和數(shù)據(jù)的中臺的融合，非常好對接。

那么對純代碼方式來講，金融行業(yè)去使用時，因為金融行業(yè)很多用戶也不是經(jīng)常做coding，所以他的學(xué)習(xí)曲線比較難、比較高。

剛才也提到如果用代碼這種方式，它跟這個操作系統(tǒng)有些時候需要linux shell腳本方式進行交互，那么它的安全性可能會存在一些缺陷。百度的度信平臺在這一塊用純界面的方式，也面臨著一些開發(fā)的周期和實施的難度。這個是聯(lián)邦學(xué)習(xí)與建模要考慮的問題。

所以我們在考慮安全，在考慮數(shù)據(jù)對建模效果業(yè)務(wù)績效的前提下，我們在運算速度上，在算法的種類的選擇上，在產(chǎn)品的應(yīng)用上，都做了一些權(quán)衡和一些損失，但有些時候這種損失和這種權(quán)衡是值得的。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

下面一點，就是百度金融專有云，如果是聯(lián)邦學(xué)習(xí)在我們的金融云、專有云上面進行部署的話，我們還額外提供七重的數(shù)據(jù)安全保障。

這七重的數(shù)據(jù)安全保障在這個圖里邊用1234567都標(biāo)注出來了。一塊是我們提供異地的災(zāi)備，我們在武漢、北京和上海有異地的百度金融云專區(qū)。

在數(shù)據(jù)的交換過程中，我們會提供一些芯片級的算法級的加密，包括在網(wǎng)絡(luò)的通路上，也提供一些加密的傳輸，讓加密的數(shù)據(jù)被截取以后都是不可用、不可解的。我們參與方的數(shù)據(jù)在云上的鏈路也好，在云上的一些硬件的里面，雙方都是互不可見的。

安全的數(shù)據(jù)脫敏方法和合規(guī)制度保障

在完成了整個建模的過程以后，比如說金融企業(yè)的數(shù)據(jù)要有用戶要查處，最后模型在使用的時候，有一個數(shù)據(jù)的健全，如果沒有授權(quán)的話，是不可以去使用產(chǎn)出模型的。

除了聯(lián)邦學(xué)習(xí)以外，我們在整個云上、在物理鏈路上、存儲量上、硬件上做了各種各樣的加密去保證安全，而不只是運用了聯(lián)邦學(xué)習(xí)技術(shù)本身，或者只是開發(fā)一個平臺。

在和金融企業(yè)的溝通中，我們發(fā)現(xiàn)，即便雙方要進行聯(lián)邦數(shù)據(jù)的融合建模，也可以采取剛才說到的，雙方先有兩個數(shù)據(jù)寬表，然后再進行融合的聯(lián)邦學(xué)習(xí)。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文

在生成這兩個雙方的數(shù)據(jù)寬表的同時，還可以采取一些更加安全的數(shù)據(jù)脫敏方法，用的比較多的就是K-匿名化，這個是保護客戶數(shù)據(jù)隱私的一種重要方法。

我們希望雙方在生成數(shù)據(jù)寬表的時候，甲方和乙方都能夠采用類似于匿名化的技術(shù)，讓雙方的原始特征數(shù)據(jù)脫敏得比較徹底，不能夠被反推。雖然聯(lián)邦學(xué)習(xí)本身也非常安全，在這個基礎(chǔ)上，我們能夠用更多的數(shù)據(jù)脫敏的方法。

右邊這一種也是類似的，我們會用差分隱私的一個方法，在數(shù)據(jù)集中里面產(chǎn)生一定的噪聲，這種隨機造成它可以通過一些概率分布前置來產(chǎn)生，這樣就在設(shè)計過程中很難去推斷出客戶的一些隱私。

百度「聯(lián)邦學(xué)習(xí)」戰(zhàn)略全布局丨萬字長文